년 8월 AI 및 로봇 연구 동향

년 8월 AI 및 로봇 연구 동향

1. 서론

1.1 년 8월 기술 지형 개요

2023년 8월은 생성형 인공지능(AI)이 범용 도구를 넘어 특정 산업 분야의 복잡한 문제를 해결하는 ‘전문가 보조(Expert Augmentation)’ 모델로 진화하는 변곡점을 맞이한 시기였다. 동시에, 2D 시각 정보의 의미론적 이해를 3D 공간으로 확장하려는 연구와, 물리 세계와의 상호작용을 위한 로봇의 지각-행동 결합(Perception-Action Coupling) 연구가 학계를 중심으로 활발히 진행되었다. 본 보고서는 이러한 핵심 동향을 중심으로 2023년 8월에 발표된 주요 정책, 산업계 기술, 학술 연구를 심층적으로 분석하고자 한다.

1.2 보고서의 구조 및 핵심 질문

본 보고서는 총 3개의 장으로 구성된다. 제1장은 미국 정부의 AI R&D 전략과 거대 기술 기업의 신규 모델 발표를 통해 거시적 방향성을 탐색한다. 제2장은 로봇 및 컴퓨터 비전 분야 최고 학술대회인 IROS와 ICCV의 주요 발표를 분석하여 학계의 최신 연구 흐름을 심도 있게 조명한다. 제3장은 arXiv에 공개된 핵심 선행 연구를 분석하여 미래 기술의 이론적 기반을 탐구한다. 이를 통해 ‘AI 기술은 어떻게 전문화되고 있는가?’, ‘가상 세계의 지능이 어떻게 물리 세계로 확장되고 있는가?’, ’차세대 AI 모델의 신뢰성과 성능은 어떻게 확보되고 있는가?’라는 근본적인 질문에 대한 답을 모색할 것이다.

2. AI R&D 정책 및 산업계 핵심 동향

2023년 8월을 전후하여 발표된 정책과 산업계의 기술들은 AI 발전의 패러다임이 중대한 전환점에 도달했음을 명확히 보여준다. 순수한 성능 경쟁과 기술적 우위 확보에 집중하던 초기 단계를 지나, 이제는 기술의 사회적 영향, 안전성, 그리고 글로벌 협력을 통한 지속 가능한 생태계 구축이라는 보다 성숙한 단계로 진입하고 있다. 미국의 국가 AI R&D 전략 계획은 이러한 변화를 정책적으로 명문화했으며, 구글과 메타 같은 거대 기술 기업들은 각자의 전문 영역에서 이러한 기조를 반영한 구체적인 기술 솔루션을 제시했다. 이는 AI 기술이 더 이상 실험실의 연구 과제에 머무르지 않고, 사회의 핵심 인프라로서 책임과 신뢰를 요구받는 단계에 이르렀음을 의미한다.

2.1 2023년 美 국가 AI R&D 전략 계획 심층 분석: 국제 협력과 안전의 부상

2023년 5월 23일, 미국 대통령 직속 국가과학기술위원회(NSTC)는 ’국가 AI R&D 전략 계획’의 2023년 업데이트 버전을 발표했으며, 이에 대한 국내 분석 보고서가 8월에 공개되었다.1 이번 업데이트는 AI 기술 패권 경쟁의 양상이 단순한 기술 개발 속도전에서 벗어나, 윤리적이고 안전한 기술 사용과 국제적 공조를 중시하는 방향으로 전환되고 있음을 보여주는 중요한 정책적 지표이다. 기존 계획이 ’미국의 리더십 유지’를 강조했던 것과 달리, 이번 계획은 ’책임 있는 AI를 통한 공익 기여’와 ’국제 협력’을 핵심 가치로 전면에 내세웠다.1

이러한 변화의 배경에는 AI 기술의 급격한 발전이 가져올 사회경제적 파급력과 잠재적 위험에 대한 깊은 인식이 자리 잡고 있다. 미국 정부는 정보제공요청(RFI)을 통해 학계, 산업계, 시민 단체 등 다양한 이해관계자로부터 60개 이상의 의견을 수렴했으며, 특히 AI의 윤리적·법적·사회적 영향(전략 3)과 AI 시스템의 안전 및 보안 보장(전략 4)에 대한 우려가 높다는 점을 확인했다.1 이는 AI의 안전성과 신뢰성 확보가 더 이상 부수적인 고려사항이 아닌, 기술 개발의 성패를 좌우하는 핵심 의제로 부상했음을 의미한다.

가장 주목할 만한 변화는 ’전략 9: AI R&D 국제협력 추진’의 신설이다.1 이는 AI 기술의 발전과 그에 따른 위험 관리가 단일 국가의 역량을 넘어서는 글로벌 어젠다임을 공식적으로 인정한 것이다. 미국은 신뢰할 수 있는 AI 개발을 위한 글로벌 문화를 육성하고, 기후 예측이나 농업 최적화와 같은 공동의 문제를 해결하기 위해 동맹국과의 연구 협력을 심화하며, 글로벌 인재 교류를 촉진하고, 기술 표준화 노력을 통해 상호운용성을 확보하고자 한다. 이는 AI 기술 경쟁이 상대방을 배제하는 ’제로섬 게임’이 아니라, 공동의 위험을 관리하고 개방적인 혁신을 촉진하기 위한 ‘협력적 경쟁’ 구도로 재편되고 있음을 시사하는 중요한 대목이다.

구분2019년 전략 계획2023년 전략 계획 (주요 변경 및 추가 사항)
핵심 기조행정적 우선순위로서의 AI (미국 리더십 유지)국가적 우선순위로서의 AI (책임 있고 신뢰 가능한 AI를 통한 공익 기여)
전략 1장기적 AI 연구 투자연합 ML(Federated ML), 확장 가능한 범용 AI, 지속 가능한 AI 등 최신 연구 주제 추가
전략 2인간-AI 협업 방법 개발인간-AI 티밍(Teaming) 개념으로 발전, 신뢰 구축 및 성과 측정 기준 연구 강조
전략 3AI의 윤리적 영향 이해AI의 사회적/윤리적 위험 완화, AI를 활용한 불평등 해소 연구 등 보다 적극적인 대응 방안 포함
전략 4신뢰 가능한 AI 시스템 구축**안전(Safety)**과 **보안(Security)**을 명확히 구분하고, 적대적 AI(Adversarial AI) 대응 및 AGI의 실존적 위험 연구 등 구체화
전략 9(해당 없음)AI R&D 국제협력 추진 (신설): 글로벌 문화 육성, 동맹국과 협력, 인재 교류, 표준화 노력

2.2 Google의 보안 패러다임 전환: 생성형 AI ’Duet AI’의 기술적 함의

2023년 8월 30일, Google Cloud는 자사의 보안 운영 플랫폼 전반에 생성형 AI ’Duet AI’를 통합한다고 발표했다.2 이 발표는 대규모 언어 모델(LLM)의 활용 парадигмы가 단순한 정보 검색이나 콘텐츠 생성을 넘어, 고도로 전문화된 영역에서 인간 분석가의 인지적 부담을 경감시키고 의사결정의 질을 높이는 ’전문가용 코파일럿(Co-pilot for Experts)’으로 진화하고 있음을 보여주는 상징적인 사례이다. 특히 사이버 보안이라는, 폭발적으로 증가하는 위협과 만성적인 인력 부족 문제에 직면한 분야에 이 기술이 적용되었다는 점은 시사하는 바가 크다.

Duet AI의 핵심 기술은 방대한 보안 관련 데이터(위협 보고서, 악성코드 분석, 네트워크 로그 등)를 학습한 특화 언어 모델 ’Sec-PaLM2’이다.2 이는 범용 LLM이 갖기 어려운 보안 위협의 미묘한 맥락, 공격 벡터의 상관관계, 최신 악성코드의 행동 패턴 등에 대한 깊은 이해를 바탕으로 한다. 따라서 Duet AI는 단순히 정보를 요약하는 것을 넘어, 분석가가 즉시 활용할 수 있는 실행 가능한 통찰력(Actionable Insight)을 제공하는 것을 목표로 한다.

Google Cloud의 주요 보안 제품에 통합된 Duet AI의 기능은 다음과 같다:

  • Mandiant Threat Intelligence의 Duet AI: 업계 최고 수준의 위협 인텔리전스 보고서를 자연어로 요약하여 제공한다. 분석가는 수십 페이지에 달하는 기술 문서를 읽는 대신, “최근 A라는 공격 그룹이 우리 산업군을 대상으로 사용하는 주요 TTPs는 무엇인가?“와 같은 질문을 통해 핵심 정보를 즉시 파악할 수 있다. 이는 위협 분석에 소요되는 시간을 획기적으로 단축하고, 분석가가 보다 전략적인 위협 예측 및 방어 계획 수립에 집중할 수 있도록 돕는다.2

  • Chronicle Security Operations의 Duet AI: 보안 데이터 분석의 패러다임을 바꾼다. 기존에는 복잡한 쿼리 언어를 숙지해야만 가능했던 데이터 분석 작업을 자연어 기반의 대화형 검색으로 전환한다. 예를 들어, 분석가는 “어제 새벽 2시에서 4시 사이에 발생한 비정상적인 아웃바운드 DNS 쿼리는?“과 같이 질문할 수 있으며, Duet AI는 이를 시스템이 이해할 수 있는 정식 쿼리로 자동 변환해준다. 또한, 수많은 로그 속에서 탐지된 보안 이벤트에 대해 “이 공격은 어떻게 시작되었고, 어떤 시스템들이 영향을 받았으며, 권장되는 다음 조치는 무엇인가?“에 대한 명확한 요약을 자동으로 생성하여 제공함으로써, 초급 분석가도 숙련된 전문가 수준의 초기 대응을 수행할 수 있도록 지원한다.2

  • Security Command Center의 Duet AI: 방어적 관점을 넘어 선제적 관점의 보안을 가능하게 한다. 클라우드 환경에서 발견된 수많은 보안 설정 오류나 취약점들을 개별적으로 보는 것이 아니라, 이들을 연결하여 잠재적인 공격 경로(Attack Path)를 즉각적으로 시뮬레이션하고 시각화해준다. “이 취약점을 방치할 경우 공격자가 최종적으로 어떤 중요 데이터에 접근할 수 있는가?“를 분석하고, 가장 치명적인 경로를 차단하기 위한 해결 방안의 우선순위를 제시함으로써, 제한된 보안 자원을 가장 효과적으로 배분할 수 있도록 돕는다.2

결론적으로 Duet AI의 등장은 생성형 AI가 인간 전문가의 지능을 ’대체’하는 것이 아니라 ’증강’시키는 방향으로 발전하고 있음을 명확히 보여준다. 이는 AI와 인간 전문가가 협력하여 복잡한 문제 해결의 효율성과 정확성을 극대화하는 새로운 협업 모델의 시작을 알린다.

2.3 Meta의 통합 번역 모델 ‘SeamlessM4T’ 심층 분석: 아키텍처, 성능, 그리고 개방형 과학의 의미

2023년 8월, Meta는 AI 기반 커뮤니케이션 기술의 새로운 이정표를 제시하는 다중언어-다중모드(Multilingual & Multimodal) 통합 번역 모델 ’SeamlessM4T’를 공개했다.3 이 모델은 음성인식(ASR), 음성-텍스트 번역(S2TT), 음성-음성 번역(S2ST), 텍스트-음성 번역(T2ST), 텍스트-텍스트 번역(T2TT) 등 언어와 관련된 거의 모든 변환 작업을 단일 모델 내에서 처리할 수 있는 최초의 올인원(All-in-one) 시스템이다.5 이는 기존에 각 작업을 별도의 전문 모델로 구현한 뒤 순차적으로 연결하여 사용했던 ‘캐스케이드(Cascade)’ 방식이 가진 근본적인 한계, 즉 각 단계에서 발생하는 오류가 다음 단계로 전파되고 증폭되는 문제와 전체 시스템의 지연 시간 증가 문제를 해결하기 위한 혁신적인 접근법이다.9

SeamlessM4T의 성공은 UnitY라는 독창적인 아키텍처에 기반한다. 이 아키텍처는 서로 다른 모달리티(음성, 텍스트)의 정보를 효과적으로 처리하고 변환하기 위한 세 가지 핵심 구성요소로 이루어져 있다:

  • w2v-BERT 2.0 인코더: 이 모델은 100만 시간(v2에서는 450만 시간으로 확장)에 달하는 방대한 양의 레이블 없는 음성 데이터를 사용하여 사전 학습된 자기지도학습(Self-supervised) 음성 인코더이다.7 특정 언어에 국한되지 않고 다양한 언어의 음성에서 음소, 운율, 억양 등 보편적인 음향적 특징을 강건하게 추출하는 역할을 수행한다. 이는 저자원 언어(Low-resource language)에 대한 번역 성능을 높이는 데 결정적인 기여를 한다.

  • T2U (Text-to-Unit) 모델: 번역된 텍스트를 다시 음성으로 합성하기 위한 중간 단계로, 텍스트를 이산적인 ’음향 단위(Acoustic Unit)’로 변환하는 모델이다. 이 음향 단위는 실제 음성 파형(Waveform)을 생성하기 전의 추상적인 표현으로, 특정 언어나 화자의 특성에 종속되지 않는 보편성을 지닌다. SeamlessM4T v2에서는 이 T2U 디코더를 비자기회귀(Non-autoregressive) 방식으로 구현하여, 이전 유닛에 순차적으로 의존하지 않고 병렬적으로 유닛을 생성할 수 있게 함으로써 추론 속도를 획기적으로 개선했다.11

  • 통합 학습 (Unified Training): UnitY 아키텍처의 가장 큰 특징은 음성 인코더, 텍스트 디코더, T2U 모델 등 모든 구성요소를 단일 최적화 목표 아래에서 함께 학습시킨다는 점이다. 이를 통해 음성에서 텍스트로, 텍스트에서 다시 음향 단위로 변환되는 과정에서 발생할 수 있는 정보의 손실을 최소화하고, 각 모듈이 서로의 표현 공간을 더 잘 이해하도록 유도한다. 이는 캐스케이드 시스템에서 각 모델이 독립적으로 최적화되어 발생하는 불일치와 오류 전파 문제를 근본적으로 해결하는 열쇠이다.9

이러한 아키텍처적 혁신을 바탕으로 SeamlessM4T는 뛰어난 성능을 입증했다. 공개 벤치마크인 FLEURS 데이터셋에서, 기존 최고 성능(SOTA) 모델 대비 음성-텍스트 번역(S2TT) 성능이 20%의 BLEU 점수 향상을 기록했다.7 또한, 강력한 성능을 내는 캐스케이드 모델과 직접 비교했을 때도 영어로의 S2TT 번역에서 1.3 BLEU, S2ST 번역에서 2.6 ASR-BLEU 만큼의 성능 향상을 달성했다.7 이는 통합 모델이 단순히 효율적일 뿐만 아니라, 번역의 질적인 측면에서도 우수함을 증명한 결과이다.

Meta는 Llama 2에 이어 SeamlessM4T 모델과 거대한 학습 데이터셋 ’SeamlessAlign’의 메타데이터를 연구 커뮤니티에 공개하며 개방형 과학(Open Science) 전략을 일관되게 추진하고 있다.5 이는 전 세계 연구자들이 Meta의 기술을 기반으로 새로운 혁신을 창출하도록 유도하고, 관련 연구 생태계를 활성화함으로써 장기적으로 기술의 사실상의 산업 표준(De facto standard)을 선점하려는 전략적 의도로 분석된다.

작업 (Task)입력 (Input)출력 (Output)입력 언어 수출력 언어 수
음성인식 (ASR)음성텍스트~100개~100개
음성-텍스트 번역 (S2TT)음성텍스트~100개96개
음성-음성 번역 (S2ST)음성음성~100개35개 (영어 포함)
텍스트-텍스트 번역 (T2TT)텍스트텍스트96개96개
텍스트-음성 번역 (T2ST)텍스트음성~100개35개 (영어 포함)

3. 주요 학술대회 발표 연구 동향 분석

학술대회는 특정 시점의 가장 첨예한 연구 주제와 미래 기술의 방향성을 가늠할 수 있는 중요한 지표이다. 2023년 하반기에 개최된 로봇 및 컴퓨터 비전 분야의 양대 산맥인 IROS와 ICCV에서는 AI 기술의 발전이 어떻게 물리 세계와의 상호작용으로 이어지고, 가상 세계의 방대한 지식이 어떻게 3차원 공간의 이해로 확장되는지에 대한 심도 있는 논의가 이루어졌다. 두 분야는 서로 다른 출발점에서 시작했지만, ‘지각하고, 추론하며, 행동하는’ 지능형 에이전트, 즉 ’체화된 AI(Embodied AI)’라는 공통의 목표를 향해 강력하게 수렴하고 있다. IROS에서는 로봇이 자신의 지각 능력을 고려하여 행동을 최적화하는 ’지각-행동 결합’이, ICCV에서는 2D 비전 모델의 지식을 3D 공간으로 ‘끌어올리는(lifting)’ 연구가 핵심 화두로 떠올랐다. 이는 컴퓨터 비전이 로봇이 행동할 수 있는 더 나은 세계 모델을 제공하고, 로봇 공학은 그 세계 모델을 개선하기 위해 더 나은 행동을 생성하는 상호보완적 발전 관계를 형성하고 있음을 보여준다.

3.1 IROS 2023 하이라이트: 지능형 로봇 시스템의 진화 방향

2023년 10월 미국 디트로이트에서 개최된 IEEE/RSJ 국제 지능형 로봇 및 시스템 학술대회(IROS 2023)는 로봇 공학 연구의 중심이 정적이고 예측 가능한 환경에서 단일 로봇의 정밀한 작업을 수행하는 것을 넘어, 불확실하고 동적인 실제 환경에서 다수의 에이전트가 협력하고 인간과 상호작용하며 복잡한 임무를 완수하는 방향으로 이동하고 있음을 명확히 보여주었다.15 채택된 논문들은 다중 에이전트 시스템, 강건한 자율성 확보, 그리고 인간 중심의 로봇 기술이라는 세 가지 큰 흐름으로 요약될 수 있다.18

가장 두드러진 동향 중 하나는 **다중 에이전트 강화학습(MARL)**의 부상이다. 이는 분산된 여러 로봇이 통신하고 협력하여 공동의 목표를 달성하는 방법을 학습하는 패러다임이다. 특히 Google DeepMind가 로봇 축구 연구를 통해 제시한 ‘모듈화된 강화학습(Modularized Reinforcement Learning)’ 접근법이 큰 주목을 받았다.27 이 방법은 ‘달리기’, ’공 차기’와 같은 개별적인 기본 기술들을 먼저 강화학습으로 숙달시킨 후, 상위 레벨의 정책이 이 기술들을 조합하여 ‘패스’, ’슛’과 같은 복잡한 전략적 행동을 수행하도록 학습시킨다. 이는 전체 행동을 한 번에 학습시키는 종단간(end-to-end) 방식이 마주하는 샘플 비효율성과 일반화의 어려움을 극복할 수 있는 실용적인 대안으로 평가받았다.

두 번째 핵심 주제는 **검증 가능한 안전성 및 신뢰성(Verifiable Safety and Trustworthiness)**이다. 자율주행차, 협동 제조 로봇, 의료 로봇 등 인간과 물리적 공간을 공유하는 로봇 시스템이 늘어남에 따라, 시스템의 안전을 수학적으로 보장하는 기술의 중요성이 그 어느 때보다 강조되었다. 이를 위해 ’정형 기법(Formal Methods)’을 로봇 제어 및 계획 알고리즘에 통합하려는 연구가 활발히 논의되었다.27 정형 기법은 시스템이 특정 안전 규칙(예: ‘로봇은 항상 인간과 1미터 이상의 거리를 유지해야 한다’)을 절대 위반하지 않음을 논리적으로 증명하는 방법론이다. 이러한 ‘설계 기반 교정(Correct-by-construction)’ 알고리즘은 시행착오에 기반한 학습 방법의 예측 불가능성을 보완하고, 로봇 시스템의 신뢰도를 획기적으로 높일 수 있는 핵심 기술로 부상하고 있다.

마지막으로, 인간-로봇 상호작용 및 재활 로봇 분야의 약진이 눈에 띄었다. 펜실베이니아 대학의 Michelle Johnson 교수는 기조연설을 통해 뇌 손상 환자의 상지 운동 기능 회복을 돕는 지능형 로봇 보조 시스템 연구를 소개하며, 로봇 기술이 어떻게 개인 맞춤형 치료를 제공하고 의료 접근성을 높일 수 있는지에 대한 비전을 제시했다.29 이는 로봇 기술의 적용 범위가 전통적인 산업 현장을 넘어, 인간의 삶의 질을 직접적으로 향상시키는 의료, 복지, 교육 분야로 빠르게 확장되고 있음을 시사한다.

3.2 IROS 2023 최우수 논문 심층 분석: ’Perception-Aware MPC’를 이용한 드론의 자율 전력선 검사

2023년 IROS에서 최우수 논문상(Best Overall Paper)을 수상한 Jiaxu Xing 등의 “Autonomous Power Line Inspection with Drones via Perception-Aware MPC“는 현대 로봇 공학이 추구하는 핵심적인 패러다임 전환을 명확하게 보여주는 연구이다.31 이 연구는 드론이 전력망에 대한 사전 지도 정보 없이, 오직 탑재된 카메라만을 이용해 전력선을 자율적으로 추적하며 검사하는 시스템을 제안한다. 이 연구의 가장 큰 기여는 전통적인 로봇 제어의 ‘지각(Perception) → 계획(Planning) → 행동(Action)’ 순차 파이프라인의 한계를 극복하고, 지각과 행동을 하나의 최적화 문제 안에서 긴밀하게 결합했다는 점에 있다.32

이 연구의 핵심 방법론은 **지각 인지 모델 예측 제어(Perception-Aware Model Predictive Control, PA-MPC)**이다. MPC는 미래의 일정 시간 구간(prediction horizon) 동안 시스템의 동역학 모델을 기반으로 최적의 제어 입력을 계산하는 제어 기법이다. 전통적인 MPC는 주로 목표 지점까지의 오차를 최소화하거나 에너지 소비를 줄이는 것을 목적 함수로 설정한다. 그러나 이 연구에서는 목적 함수에 새로운 항, 즉 ’지각 품질’을 직접적으로 포함시켰다.

구체적으로, 드론의 제어기는 다음 두 가지 상충될 수 있는 목표를 동시에 최적화한다:

  1. 전력선 추적 (Line Tracking): 드론의 미래 경로상에서 전력선이 카메라 이미지의 중앙에 위치하고, 최대한 선명하게 보이도록 하는 궤적을 생성한다. 이는 지각 정보의 품질을 극대화하는 목표이다.

  2. 충돌 회피 (Collision Avoidance): 전력탑과 같은 장애물을 감지하고, 이들과의 충돌 확률이 특정 임계값 이하로 유지되도록 안전한 궤적을 생성한다.

이 두 목표는 특히 전력탑 근처에서 상충 관계에 놓인다. 전력선을 계속 따라가다 보면 전력탑과 충돌할 위험이 커지기 때문이다. PA-MPC는 이러한 상황에서 두 목표의 중요도(가중치)를 실시간으로 동적으로 조절하여, 평소에는 전력선 추적에 집중하다가 장애물이 가까워지면 충돌 회피를 우선시하는 최적의 행동을 스스로 찾아낸다.33 이는 로봇이 단순히 주어진 경로를 따라가는 수동적인 존재가 아니라, 자신의 ’지각 능력’의 한계를 인지하고, 더 나은 지각 정보를 얻기 위해 능동적으로 행동을 계획하고 실행하는 진정한 의미의 자율 시스템으로 나아가는 중요한 단계이다.

또한, 이 연구는 전력선 탐지를 위해 합성 데이터(Synthetic Data)만으로 학습된 경량 딥러닝 검출기를 제안했다는 점에서 실용적인 가치가 높다. 실제 환경에서 전력선 이미지를 대량으로 수집하고 레이블링하는 것은 비용과 시간이 많이 소요되는 작업이다. 연구팀은 사실적인 시뮬레이션 환경에서 생성한 합성 이미지만으로 검출기를 학습시켰음에도 불구하고, 실제 환경에서 추가적인 학습(fine-tuning) 없이도 강건하게 동작하는 제로샷 전이(Zero-shot Transfer) 성능을 입증했다.32 이는 데이터 부족 문제를 해결하고 AI 기반 로봇 시스템의 개발 및 배포를 가속화할 수 있는 효과적인 방법론을 제시한다.

3.3 ICCV 2023 하이라이트: 파운데이션 모델이 이끄는 컴퓨터 비전의 혁신

2023년 10월 프랑스 파리에서 개최된 국제 컴퓨터 비전 학술대회(ICCV 2023)는 컴퓨터 비전 연구의 새로운 시대가 열렸음을 선언하는 자리였다. 총 8,260편의 논문이 제출되어 그중 2,160편이 채택되는 등(채택률 26.15%) 38, 학계의 뜨거운 관심 속에서 진행된 이번 학회는 한 가지 명확한 흐름을 보여주었다. 바로 대규모 데이터로 사전 학습된 **파운데이션 모델(Foundation Models)**이 2D 이미지 이해의 영역을 넘어, 3D 공간 재구성, 비디오 생성, 로보틱스 등 컴퓨터 비전의 거의 모든 하위 분야로 그 영향력을 확장하고 있다는 것이다.38

가장 두드러진 연구 동향은 3D 재구성 및 NeRF(Neural Radiance Fields) 분야의 발전이다. NeRF는 여러 장의 2D 이미지로부터 3D 장면을 연속적인 함수로 표현하여, 새로운 시점의 이미지를 매우 사실적으로 렌더링하는 기술이다. 초기 NeRF가 단일 장면에 대해 오랜 시간 학습해야 했던 것과 달리, ICCV 2023에서는 파운데이션 모델을 활용하여 단일 또는 소수의 이미지만으로도 처음 보는 장면에 대해 빠르게 일반화하고 3D 모델을 생성하는 연구들이 주를 이루었다. 더 나아가, 단순히 장면을 복원하는 것을 넘어, 텍스트나 스케치 입력을 통해 3D 장면 내의 특정 객체를 의미론적으로 편집하거나 스타일을 바꾸는 등, 3D 콘텐츠 제작의 새로운 가능성을 여는 연구들이 주목받았다.

생성 모델의 고도화 역시 핵심 주제였다. DALL-E, Stable Diffusion과 같은 텍스트-이미지 생성 모델의 성공에 힘입어, 그 핵심 원리인 확산 모델(Diffusion Model)을 비디오, 3D 형상, 인간의 움직임 등 더 복잡하고 동적인 데이터로 확장하려는 시도가 다수 발표되었다. 예를 들어, ‘ReMoDiffuse’ 42와 같은 연구는 텍스트 설명으로부터 사실적인 인간 모션을 생성하는 기술을 선보이며, 영화, 게임, 가상현실 분야의 콘텐츠 제작 패러다임을 바꿀 잠재력을 보여주었다.

마지막으로, 자율주행 및 로보틱스를 위한 비전 기술은 여전히 컴퓨터 비전 연구의 중요한 축을 담당했다. 특히 라이다(LiDAR) 센서 데이터와 카메라 이미지 데이터를 효과적으로 융합하여, 악천후나 야간과 같은 까다로운 조건에서도 3차원 객체를 강건하게 인식하는 기술이 비중 있게 다뤄졌다.42 또한, 복잡한 도시 환경에서 객체들의 움직임을 예측하고, 장면을 의미론적(semantic)으로 분할하여 로봇이 안전하게 주행하거나 작업을 수행할 수 있도록 하는 연구들이 자율주행 및 로봇 분야의 핵심 과제로 논의되었다.38 이러한 연구들은 파운데이션 모델이 제공하는 풍부한 사전 지식을 활용하여, 적은 양의 데이터만으로도 높은 성능을 달성하려는 경향을 보였다.

3.4 ICCV 2023 주목할 만한 논문 심층 분석: ‘FeatureNeRF’ - 2D 파운데이션 모델 증류를 통한 일반화 가능한 3D 의미론적 표현 학습

ICCV 2023에서 발표된 Jianglong Ye 등의 “FeatureNeRF: Learning Generalizable NeRFs by Distilling Foundation Models“는 컴퓨터 비전 분야의 최신 흐름을 집약적으로 보여주는 대표적인 연구이다.44 이 논문은 기존 NeRF 연구가 주로 새로운 시점의 이미지를 사실적으로 ’합성(Synthesis)’하는 데 집중했던 것에서 한 걸음 더 나아가, 3D 공간 자체에 깊은 ’의미(Semantics)’를 부여하는 혁신적인 프레임워크를 제안한다. 이는 3D 장면을 단순히 ‘보는’ 것을 넘어 ‘이해하는’ 단계로 나아가는 중요한 전환을 의미한다.

이 연구의 핵심 아이디어는 **특징 증류(Feature Distillation)**라는 개념에 있다. 연구팀은 DINO나 Latent Diffusion과 같이 수억 장의 이미지와 텍스트 데이터로 사전 학습된 2D 비전 파운데이션 모델이 이미지의 의미론적, 구조적 정보를 담고 있는 고품질의 특징 공간(feature space)을 이미 학습했다는 점에 주목했다.44 FeatureNeRF는 이 2D 모델의 ’지식’을 3D 공간으로 이전, 즉 ’증류’하는 방법을 제안한다.

학습 과정은 다음과 같다. NeRF는 3D 공간상의 한 점 (x, y, z)와 시점 방향 \mathbf{d}를 입력받아 그 지점의 색상(RGB)과 밀도(density)를 출력한다. FeatureNeRF는 여기에 더해 고차원의 ‘특징 벡터(feature vector)’ \mathbf{v}를 추가로 출력하도록 네트워크를 설계한다. 그리고 NeRF가 특정 시점에서 렌더링한 2D ’특징 맵(Feature Map)’이, 동일한 2D 이미지를 파운데이션 모델(예: DINO)이 보고 추출한 특징 맵과 최대한 유사해지도록 만드는 ‘증류 손실(Distillation Loss)’ 항을 전체 손실 함수에 추가한다. 전체 손실 함수 \mathcal{L}은 픽셀 색상을 맞추기 위한 재구성 손실 \mathcal{L}_{\mathrm{rec}}, 특징 맵을 맞추기 위한 증류 손실 \mathcal{L}_{\mathrm{distill}}, 그리고 3D 공간의 일관성을 위한 좌표 일관성 손실 \mathcal{L}_{\mathrm{coord}}의 가중합으로 구성된다 46:

\mathcal{L} = \mathcal{L}_{\mathrm{rec}} + \lambda_{\mathrm{distill}}\mathcal{L}_{\mathrm{distill}} + \lambda_{\mathrm{coord}}\mathcal{L}_{\mathrm{coord}}
이러한 증류 과정을 통해, 2D 파운데이션 모델이 가진 “의자 다리”, “자동차 바퀴“와 같은 추상적인 의미론적 지식이 3D NeRF 공간의 각 지점에 자연스럽게 스며들게 된다. 결과적으로, 학습이 완료된 FeatureNeRF는 단 한 장의 이미지만으로도 처음 보는 객체에 대해 색상과 형태뿐만 아니라, 각 부분이 어떤 의미를 갖는지에 대한 정보까지 포함하는 연속적인 3D 의미론적 특징 볼륨(Continuous 3D Semantic Feature Volume)을 생성할 수 있게 된다.

이러한 3D 의미론적 표현은 다양한 다운스트림 태스크에 곧바로 활용될 수 있다. 예를 들어, 한 의자 이미지의 특정 픽셀에 ’다리’라는 레이블을 부여하면, FeatureNeRF는 이 정보와 특징 공간의 유사도를 이용해 다른 시점에서 본 의자의 다리 부분이나, 심지어는 전혀 다른 의자 모델의 다리 부분까지 자동으로 분할(Part Co-segmentation)할 수 있다. 또한, 특정 키포인트(예: 자동차의 헤드라이트)를 지정하면, 다른 시점이나 다른 차종에서도 해당 키포인트의 3D 위치를 정확하게 찾아낼 수 있다(Keypoint Transfer). 이 모든 작업이 3D 모델에 대한 추가적인 레이블링 없이, 오직 2D 파운데이션 모델의 지식만으로 가능하다는 점에서 FeatureNeRF의 혁신성을 찾을 수 있다.45

구분방법ChairCarPlaneTableBottleMotorbike
2D mIoUNeRF Feat. (Ablation)80.7375.1069.4584.6587.1467.49
Ours (Diffusion)73.4571.1659.1683.9188.0164.28
Ours (DINO)81.9376.5071.5787.9787.8968.22
3D mIoUNeRF Feat. (Ablation)68.3265.4355.1275.1479.3352.17
Ours (Diffusion)65.1762.1950.1174.8280.1550.19
Ours (DINO)70.1167.3157.2978.1380.4754.22

4. arXiv 주요 논문 및 선행 연구 동향

arXiv와 같은 사전 공개(pre-print) 서버는 학회의 공식 발표보다 한발 앞서 연구의 최전선을 엿볼 수 있는 창이다. 2023년 8월 arXiv에 공개된 논문들은 특히 생성형 AI의 학습 방법론과 AI의 논리적 추론 능력의 근본적인 발전에 대한 중요한 이론적 기반을 제시했다. 이는 단순히 새로운 모델을 발표하는 것을 넘어, ’어떻게 더 똑똑하고, 더 안전하며, 더 유용한 AI를 만들 것인가’라는 근본적인 질문에 답하려는 시도들이다. 특히 강화학습(Reinforcement Learning)이 생성형 모델의 한계를 극복하고 인간의 의도와 정렬(align)시키는 핵심적인 프레임워크로 부상했으며, 동시에 거대 언어 모델이 단순한 패턴 인식을 넘어 복잡한 문제를 해결하는 논리적 추론 능력을 갖추기 시작했음을 보여주는 연구들이 주목받았다.

4.1 생성형 AI를 위한 강화학습: arXiv:2308.00031 논문 기반 패러다임 분석

2023년 8월 Giorgio Franceschelli와 Mirco Musolesi가 arXiv에 공개한 서베이 논문 “Reinforcement Learning for Generative AI: State of the Art, Opportunities and Open Research Challenges” (arXiv:2308.00031)는 생성형 AI의 발전에 있어 강화학습(RL)이 차지하는 역할과 그 잠재력을 체계적으로 조망했다는 점에서 큰 의미를 가진다.51 이 논문은 RL이 기존의 지도학습(Supervised Learning)이나 자기지도학습(Self-supervised Learning)의 한계를 보완하는 부수적인 도구가 아니라, 생성형 AI의 품질과 신뢰성을 한 단계 끌어올리는 핵심적인 훈련 패러다임임을 역설한다.

전통적인 생성형 모델은 주로 최대우도추정(Maximum Likelihood Estimation, MLE) 방식으로 학습된다. 이는 모델이 학습 데이터의 분포를 최대한 유사하게 모방하도록 훈련하는 것이다. 하지만 이 방식은 종종 ‘학습 목표와 실제 평가 지표 간의 불일치’ 문제를 야기한다. 예를 들어, 텍스트 생성 모델은 문법적으로 완벽하고 데이터 분포상 확률이 높은 문장을 생성하도록 학습되지만, 실제로는 의미 없이 반복적이거나, 맥락에 맞지 않거나, 심지어 유해한 내용을 생성할 수 있다.51 RL은 이러한 문제를 해결하기 위한 강력한 프레임워크를 제공하며, 논문은 그 적용 방식을 세 가지 주요 패러다임으로 분류한다.

  1. 순수 생성을 위한 RL (RL for Mere Generation): 이 패러다임은 생성 과정을 순차적인 의사결정 문제(Sequential Decision-making Problem)로 재정의한다. 예를 들어, 문장을 생성하는 것은 매 순간 다음 단어를 선택하는 행동의 연속으로 볼 수 있다. RL 에이전트는 생성된 결과물이 실제 데이터와 얼마나 유사한지에 따라 보상을 받으며, 이 보상을 최대화하는 단어 선택 정책(policy)을 학습한다. 이는 생성적 적대 신경망(GAN)에서 판별자(discriminator)가 생성자(generator)에게 보상 신호를 주는 것과 유사한 원리이다.57

  2. 정량적 지표를 최대화하는 생성을 위한 RL (RL for Generation while Maximizing a Quantifiable Metric): 이 접근법은 RL의 가장 큰 장점인 ’미분 불가능한(non-differentiable) 목적 함수 최적화’를 적극적으로 활용한다. 기계 번역의 품질을 평가하는 BLEU 점수나, 신약 개발에서 생성된 분자의 약물유사성(drug-likeness) 점수와 같은 실제 평가 지표들은 대부분 미분이 불가능하여 직접적인 손실 함수로 사용하기 어렵다. RL 프레임워크에서는 이러한 지표들을 직접 보상(reward)으로 설정할 수 있다. 모델이 높은 BLEU 점수를 받는 번역문을 생성하거나, 특정 화학적 속성을 만족하는 분자 구조를 제안할 때마다 높은 보상을 주는 방식으로 정책을 학습시킴으로써, 학습 목표와 평가 목표를 직접적으로 일치시킬 수 있다.52

  3. 특정 속성을 내재화하기 위한 RL (RL for Embedding Desired Characteristics): 이 패러다임은 데이터셋만으로는 명시적으로 학습하기 어려운 추상적이고 질적인 속성(예: 안전성, 유용성, 무해성, 창의성)을 모델에 주입하는 데 사용된다. 가장 대표적인 예가 바로 ChatGPT와 같은 최신 LLM의 핵심 기술인 **인간 피드백 기반 강화학습(RLHF)**이다. 이 과정은 먼저 인간이 여러 생성 결과물에 대해 선호를 평가한 데이터를 수집하고, 이 데이터를 바탕으로 인간의 선호를 예측하는 ’보상 모델(Reward Model)’을 학습시킨다. 그 후, 생성 모델(LLM)은 이 보상 모델로부터 높은 점수를 받는, 즉 인간이 선호할 만한 결과물을 생성하도록 강화학습을 통해 미세 조정(fine-tuning)된다. 이는 AI를 개발자의 의도와 사회적 가치에 부합하도록 ’정렬(Align)’시키는 가장 효과적인 방법으로, AI의 신뢰성과 안전성을 확보하는 데 결정적인 역할을 한다.52

4.2 DeepMind의 AlphaCode: 경쟁 프로그래밍을 통한 AI의 논리적 추론 및 문제 해결 능력의 진화

2023년 8월 29일, Google DeepMind는 경쟁 프로그래밍(Competitive Programming) 분야에서 새로운 이정표를 세운 AI 시스템, AlphaCode의 향상된 연구 성과를 공개했다.60 경쟁 프로그래밍은 복잡한 문제 설명을 자연어로 이해하고, 효율적인 알고리즘을 설계하며, 이를 특정 프로그래밍 언어로 정확하게 구현하여 주어진 시간 및 메모리 제약 조건 내에서 정답을 도출해야 하는 고도의 지적 활동이다. AlphaCode의 성과는 AI가 단순히 인터넷상의 방대한 코드를 모방하고 패턴을 학습하는 수준을 넘어, 깊이 있는 논리적 추론과 창의적인 문제 해결 능력을 갖추기 시작했음을 시사한다.

AlphaCode의 성공은 거대 언어 모델(LLM)을 기반으로 하지만, 단순한 코드 생성 모델과는 차별화되는 몇 가지 핵심적인 기술적 접근법에 기인한다. 첫째, 모델은 문제 설명을 입력받아 수백만 개에 달하는 방대한 양의 잠재적인 코드 후보군을 생성한다. 둘째, 생성된 코드들 중에서 문법적으로 틀리거나 명백히 비효율적인 코드들을 필터링하는 과정을 거친다. 셋째, 살아남은 소수의 유망한 코드 후보군에 대해, 예제 테스트 케이스를 실행하여 실제로 정답을 맞히는지 검증하고 클러스터링하여 최종 제출할 코드를 선정한다.

이러한 ‘대량 생성 후 필터링 및 검증(Generate-and-Filter)’ 접근법은 AI가 단번에 완벽한 해결책을 찾는 것이 아니라, 넓은 탐색 공간을 효율적으로 탐색하고 그중에서 최적의 해를 찾아가는 인간의 문제 해결 과정과 유사하다. 이는 LLM이 언어적 패턴 학습 능력을 넘어, 복잡한 제약 조건을 만족시키는 솔루션을 탐색하고 평가하는 추론(Reasoning)계획(Planning) 능력을 갖추기 시작했음을 보여주는 강력한 증거이다.60

AlphaCode와 같은 AI 시스템의 발전은 소프트웨어 개발의 미래에 중대한 영향을 미칠 것이다. 반복적인 코딩 작업을 자동화하고, 버그를 찾아 수정하며, 심지어는 개발자가 생각하지 못한 새로운 알고리즘적 해결책을 제안하는 ’AI 프로그래머’의 등장을 예고한다. 더 나아가, 이는 수학 정리 증명, 과학적 가설 수립 및 검증, 신소재 설계 등 인간의 고유한 영역으로 여겨졌던 고도의 지적 노동을 AI가 보조하거나 자동화할 수 있는 가능성을 열어주는 중요한 기술적 진보로 평가된다.

5. 결론

5.1 년 8월 동향 종합

2023년 8월은 AI 기술 발전의 패러다임이 ’규모의 확장’에서 ’적용의 심화’로 명확하게 전환되는 중요한 시기였다. 미국 정부의 AI R&D 전략 계획은 기술의 사회적 책무와 국제적 공조의 중요성을 정책의 최우선 순위로 격상시키며, AI 개발이 성숙한 단계로 접어들고 있음을 공식화했다. 산업계에서는 구글과 메타를 필두로, 보안, 통번역 등 특정 전문 도메인에 고도로 특화된 파운데이션 모델을 선보이며 AI의 실질적인 산업적 가치 창출에 집중하기 시작했다. 이는 생성형 AI가 범용 대화 도구를 넘어, 각 분야 전문가의 생산성을 극대화하는 핵심 인프라로 자리매김하고 있음을 보여준다. 동시에 학계에서는 2D와 3D, 지각과 행동, 데이터 기반 학습과 정형적 검증의 경계를 허무는 융합 연구가 활발히 진행되었다. 이는 가상 세계에서 학습된 지능이 물리 세계의 복잡성과 불확실성에 강건하게 대처하고, 신뢰할 수 있는 자율 시스템을 구축하기 위한 필연적인 과정이라 할 수 있다.

5.2 미래 연구 방향성 제시

이러한 동향을 바탕으로 향후 AI 및 로봇 분야의 연구는 다음 세 가지 방향으로 심화될 것으로 전망된다.

  1. 도메인 특화 파운데이션 모델 (Domain-Specific Foundation Models): 범용 LLM의 한계를 넘어, 과학, 의료, 법률, 금융 등 각 전문 분야의 방대한 지식과 고유한 추론 과정을 내재화한 모델의 개발이 가속화될 것이다. 이는 단순히 텍스트를 생성하는 것을 넘어, 과학적 발견을 위한 가설을 수립하거나, 복잡한 법률 문서의 논리적 모순을 찾아내는 등 고도의 전문성을 요구하는 작업을 수행하는 AI의 등장을 이끌 것이다.

  2. 물리 세계와의 상호작용 (Interaction with the Physical World): FeatureNeRF와 같이 3D 공간의 의미를 깊이 이해하는 기술과, Perception-Aware MPC와 같이 지각과 행동을 긴밀하게 결합하는 제어 기술의 융합이 핵심적인 연구 주제가 될 것이다. 이를 통해 로봇은 비정형적이고 예측 불가능한 실제 환경에서 단순히 주어진 명령을 수행하는 것을 넘어, 스스로 환경을 탐색하고, 상황을 이해하며, 목표 달성을 위한 최적의 행동을 자율적으로 계획하고 실행하는 ’완전한 의미의 체화된 AI(Embodied AI)’로 발전할 것이다.

  3. 신뢰성 및 정렬 (Trustworthiness and Alignment): 생성형 AI의 성능이 인간의 능력을 넘어서는 영역이 나타남에 따라, AI의 행동을 인간의 의도와 사회적 가치에 부합하도록 제어하고 예측 가능하게 만드는 기술의 중요성은 기하급수적으로 증가할 것이다. 강화학습을 통한 가치 정렬(Value Alignment), 정형 기법을 이용한 안전성 검증, 설명가능 AI(XAI)를 통한 의사결정 과정의 투명성 확보 등, AI의 신뢰성을 보장하기 위한 연구가 기술 개발의 전제 조건이 될 것이다.

5.3 최종 제언

2023년 8월에 발표된 일련의 연구들은 AI가 단순한 정보 처리 및 자동화 도구를 넘어, 인간 전문가를 보조하고, 물리 세계와 능동적으로 상호작용하며, 궁극적으로는 인간의 가치를 반영하는 방향으로 진화하고 있음을 명확히 보여주었다. 따라서 향후 기술 개발은 알고리즘의 성능을 높이는 노력과 더불어, 이러한 강력한 시스템의 안전성, 투명성, 책임성을 확보하기 위한 사회적, 윤리적, 기술적 논의와 함께 균형 있게 이루어져야 할 것이다. 기술의 발전 속도만큼이나 그 기술을 책임감 있게 사용하고 통제할 수 있는 능력의 함양이 미래 AI 시대의 성패를 좌우할 핵심 과제가 될 것이다.

6. 참고 자료

  1. HOME > 지식정보 > 간행물 > 지능사회 이슈분석 > [THE AI REPORT …, https://www.nia.or.kr/site/nia_kor/ex/bbs/View.do;jsessionid=54BCE63FE0D99CF0975B4F28E6835649.2313f137729c06361105?cbIdx=82618&bcIdx=25870&parentSeq=25870&fbclid=IwAR2R_WqUPbhsoZaK9IVk7_e8aOPyw48swyJND7LMFHD-3L0CBNPwXCa3ZSE
  2. 보안 과제 해결에 도움이 될 수 있는 새로운 AI 기능 | Google Cloud …, https://cloud.google.com/blog/ko/products/identity-security/security-ai-next23
  3. [르포] ‘SNS왕국’ 메타 AI연구소 설립 10년…VR 헤드셋 쓰니 실시간 번역 - 연합뉴스, https://www.yna.co.kr/view/AKR20231201063100091
  4. Seamless Translation | Meta FAIR, https://seamless.metademolab.com/
  5. Introducing SeamlessM4T, a Multimodal AI Model for Speech and Text Translations, https://about.fb.com/news/2023/08/seamlessm4t-ai-translation-model/
  6. facebookresearch/seamless_communication: Foundational Models for State-of-the-Art Speech and Text Translation - GitHub, https://github.com/facebookresearch/seamless_communication
  7. Paper page - SeamlessM4T-Massively Multilingual & Multimodal …, https://huggingface.co/papers/2308.11596
  8. (PDF) SeamlessM4T-Massively Multilingual & Multimodal Machine Translation, https://www.researchgate.net/publication/373297650_SeamlessM4T-Massively_Multilingual_Multimodal_Machine_Translation
  9. SeamlessM4T: Revolutionizing Translation in a Multilingual and Multimodal World, https://www.digitalocean.com/community/tutorials/seamless-translation-multilingual-multimodal-world
  10. arXiv:2503.04799v1 [cs.CL] 3 Mar 2025, https://arxiv.org/pdf/2503.04799
  11. Seamless Communication Models - AI at Meta, https://ai.meta.com/resources/models-and-libraries/seamless-communication-models/
  12. facebook/seamless-m4t-v2-large - Hugging Face, https://huggingface.co/facebook/seamless-m4t-v2-large
  13. Seamless: In-Depth Walkthrough of Meta’s New Open-Source Suite of Translation Models, https://towardsdatascience.com/seamless-in-depth-walkthrough-of-metas-new-open-source-suite-of-translation-models-b3f22fd2834b/
  14. arXiv:2308.11596v3 [cs.CL] 25 Oct 2023, https://arxiv.org/pdf/2308.11596
  15. Michigan Robotics at IROS 2023 in Detroit, https://robotics.umich.edu/news/2023/michigan-robotics-at-iros-2023-in-detroit/
  16. Program Overview - IROS 2023, https://2023.ieee-iros.org/program-overview/
  17. Finalists Best Paper Award @ IROS 2023 : FATROP: A Fast Constrained Optimal Control Problem Solver for Robot Trajectory Optimization and Control; Lander Vanroye, Ajay Suresha Sathya, Joris De Schutter, Wilm Decré - Departement Werktuigkunde - KU Leuven, https://www.mech.kuleuven.be/en/news/iros-2023
  18. IROS 2023 Accepted Paper List - Paper Copilot, https://papercopilot.com/paper-list/iros-paper-list/iros-2023-paper-list/
  19. IROS 2023 – Research Impact & Leadership - Georgia Institute of Technology, https://sites.gatech.edu/research/iros-2023/
  20. IROS 2023: Home, https://2023.ieee-iros.org/
  21. 2 Papers Accepted to IROS 2023 - MIT d’Arbeloff Lab, https://darbelofflab.mit.edu/2-papers-accepted-to-iros-2023/
  22. Papers accepted at IROS 2023 | SLMC - School of Informatics - The University of Edinburgh, https://informatics.ed.ac.uk/slmc/news-and-events/papers-accepted-at-iros-2023
  23. gonultasbu/IROS2023PaperList: This repository lists all papers presented in IROS 2023. - GitHub, https://github.com/gonultasbu/IROS2023PaperList
  24. Call for Papers (Closed) - IROS 2023, https://2023.ieee-iros.org/call-for-papers/
  25. IROS 2022 – 2022 IEEE/RSJ International Conference on Intelligent Robots and Systems, https://iros2022.org/
  26. DeepNLP/IROS-2023-Accepted-Papers · Datasets at Hugging Face, https://huggingface.co/datasets/DeepNLP/IROS-2023-Accepted-Papers/viewer
  27. Key Takeaways from IROS 2023: Insights into the Future of Robotics - Medium, https://medium.com/d-classified/key-takeaways-from-iros-2023-insights-into-the-future-of-robotics-6e2b87eefc1c
  28. IROS 2023: The Robotics Conference Down the Road - Jiawei Chen, https://jchen-cs.github.io/iros-2023-the-robotics-conference-down-the-road/
  29. Plenaries & Keynotes - IROS 2023, https://2023.ieee-iros.org/plenaries-keynotes/
  30. #IROS2023: A glimpse into the next generation of robotics - Robohub, https://robohub.org/iros2023-a-glimpse-into-the-next-generation-of-robotics/
  31. IROS 2023 Award Winners, https://2023.ieee-iros.org/iros-2023-award-winners/
  32. Autonomous Power Line Inspection with Drones via Perception-Aware MPC, https://ippc-iros23.github.io/papers/xing.pdf
  33. Autonomous Power Line Inspection with Drones via Perception …, https://rpg.ifi.uzh.ch/docs/IROS23_Xing.pdf
  34. Autonomous Power Line Inspection with Drones via Perception-Aware MPC - ResearchGate, https://www.researchgate.net/publication/369759852_Autonomous_Power_Line_Inspection_with_Drones_via_Perception-Aware_MPC
  35. uzh-rpg/pampc_for_power_line - GitHub, https://github.com/uzh-rpg/pampc_for_power_line
  36. Autonomous Power Line Inspection with Drones via Perception-Aware MPC, https://www.research-collection.ethz.ch/handle/20.500.11850/662353
  37. Autonomous Power Line Inspection with Drones via Perception-Aware MPC - ResearchGate, https://www.researchgate.net/publication/376493625_Autonomous_Power_Line_Inspection_with_Drones_via_Perception-Aware_MPC
  38. Program Overview - International Conference on Computer Vision …, https://iccv2023.thecvf.com/program.overview-97.php
  39. CALL FOR PAPERS - Submission - International Conference on Computer Vision - ICCV 2023, https://iccv2023.thecvf.com/call.for.papers-361400-2-22-14.php
  40. ICCV 2023 Accepted Paper List - Paper Copilot, https://papercopilot.com/paper-list/iccv-paper-list/iccv-2023-paper-list/
  41. ICCV 2023 Open Access Repository, https://openaccess.thecvf.com/ICCV2023
  42. ICCV 2023 Accepted Papers - MMLab@NTU, https://www.mmlab-ntu.com/conference/iccv2023/index.html
  43. Accepted Papers - ICCV’23 - AI + HADR 2023, https://www.hadr.ai/previous-versions/iccv-2023/accepted-papers-iccv23
  44. FeatureNeRF: Learning Generalizable NeRFs by Distilling Foundation Models, https://www.computer.org/csdl/proceedings-article/iccv/2023/071800i928/1TJdhcwlh4I
  45. FeatureNeRF: Learning Generalizable NeRFs by Distilling Foundation Models, https://jianglongye.com/featurenerf/
  46. FeatureNeRF: Learning Generalizable NeRFs … - CVF Open Access, https://openaccess.thecvf.com/content/ICCV2023/papers/Ye_FeatureNeRF_Learning_Generalizable_NeRFs_by_Distilling_Foundation_Models_ICCV_2023_paper.pdf
  47. FeatureNeRF: Learning Generalizable NeRFs by Distilling Foundation Models, ICCV 2023 - GitHub, https://github.com/jianglongye/featurenerf
  48. [2205.15585] Decomposing NeRF for Editing via Feature Field Distillation - arXiv, https://arxiv.org/abs/2205.15585
  49. [2303.12786] FeatureNeRF: Learning Generalizable NeRFs by Distilling Foundation Models - arXiv, https://arxiv.org/abs/2303.12786
  50. [2303.13777] GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from Multi-view Images - arXiv, https://arxiv.org/abs/2303.13777
  51. Reinforcement Learning for Generative AI: A Survey - arXiv, https://arxiv.org/html/2308.14328v3
  52. arxiv.org, https://arxiv.org/html/2308.00031v3
  53. Reinforcement Learning for Generative AI: State of the Art, Opportunities and Open Research Challenges | Request PDF - ResearchGate, https://www.researchgate.net/publication/372827449_Reinforcement_Learning_for_Generative_AI_State_of_the_Art_Opportunities_and_Open_Research_Challenges
  54. [PDF] Reinforcement Learning for Generative AI: A Survey - Semantic Scholar, https://www.semanticscholar.org/paper/54a86a3042591b9757c292630594b6487a2fc82c
  55. View of Reinforcement Learning for Generative AI: State of the Art, Opportunities and Open Research Challenges, https://jair.org/index.php/jair/article/view/15278/27007
  56. Giorgio Franceschelli - Curriculum vitae - Università di Bologna, https://www.unibo.it/sitoweb/giorgio.franceschelli/cv-en
  57. arXiv:2308.00031v4 [cs.LG] 8 Feb 2024, https://arxiv.org/pdf/2308.00031
  58. Machine Learning Aug 2023 - arXiv, https://web3.arxiv.org/list/cs.LG/2023-08?skip=0&show=250
  59. Giorgio Franceschelli from University of Bologna | Scilit, https://www.scilit.com/scholars/19830450
  60. 2023: A Year of Groundbreaking Advances in AI and Computing …, https://deepmind.google/discover/blog/2023-a-year-of-groundbreaking-advances-in-ai-and-computing/